08. 函数逼近
函数逼近
函数逼近
对于具有连续状态 s \in \mathcal{S} = {\mathbb{R}^{n}} 的问题领域,我们希望有一种方式能表示值函数 v_{\pi}(s) (针对预测) 或 q_{\pi}(s, a)(针对控制)。
为此,我们可以选择一个逼近真值函数的参数化函数:
\hat{v}(s, \mathbf{w}) \approx v_{\pi}(s)
\hat{q}(s, a, \mathbf{w}) \approx q_{\pi}(s, a)
我们的目标变成找到一组生成最优函数的参数 \mathbf{w}。我们可以通过蒙特卡洛或时间差分方法使用一般强化学习框架,并根据所选函数修改更新机制。
特征向量
一个常见的中间步骤是计算表示状态的特征向量:
\mathbf{x}(s)